1. Data Cleaning (Pembersihan)
Data seringkali "kotor", mengandung kesalahan, duplikat, atau nilai kosong (Null). Tugasmu adalah membersihkan data siswa di bawah ini sebelum diproses lebih lanjut.
Dataset Mentah: db_siswa_2024.csv
Errors: 4| ID | Nama | Nilai | Kota | Aksi |
|---|
Panduan Aksi
Data nilai hilang. Klik tombol 'Fix' untuk mengisi dengan rata-rata (Mean Imputation).
Data ganda tercatat dua kali. Klik 'Hapus' untuk membuang baris duplikat.
Penulisan kota tidak standar (jkt -> Jakarta). Klik 'Fix' untuk standarisasi.
2. Data Integration (Penggabungan)
Kita memiliki data terpisah: "Data Profil" dan "Data Ekstrakurikuler". Kita perlu menggabungkannya berdasarkan ID Siswa yang sama (Primary Key).
Tabel A: Profil
| ID | Nama | Kelas |
|---|---|---|
| 101 | Budi | X-1 |
| 102 | Siti | X-2 |
| 103 | Andi | X-1 |
Tabel B: Ekstra
| ID_Siswa | Kegiatan | Hari |
|---|---|---|
| 101 | Basket | Senin |
| 102 | PMR | Rabu |
| 103 | Robotik | Jumat |
3. Data Transformation
Mengubah format data agar siap dianalisis. Contoh: Mengubah nilai angka 0-100 menjadi grade huruf (A, B, C) untuk penyederhanaan kategori.
Data Asli (Numerik)
Aturan Transformasi:
IF nilai >= 85 THEN 'A'
IF nilai < 85 THEN 'B'
Data Hasil (Kategori)
Menunggu transformasi...
4. Data Reduction
Mengurangi volume data tnpa menghilangkan informasi penting. Kita akan membuang kolom yang tidak relevan ('Agama', 'Alamat Lengkap') untuk fokus pada Nilai dan Kegiatan.
| ID Siswa | Nama | Agama | Nilai Akhir | Alamat Lengkap |
|---|---|---|---|---|
| 101 | Budi | Islam | 90 | Jl. Mawar No. 4, Jakarta Selatan |
| 102 | Siti | Islam | 82 | Jl. Kenanga No. 12, Bekasi |
| 103 | Andi | Kristen | 88 | Jl. Anggrek No. 1, Bogor |
Uncheck kotak merah di atas untuk membuang kolom yang tidak perlu.
5. Visualisasi Data
Data bersih dan relevan kini siap disajikan menjadi informasi yang mudah dipahami.